|
Ein Teilbereich des {\em Knowledge Discovery in Databases} ist die
Suche nach auffälligen Abhängigkeiten zwischen Einträgen in einer
Datenbank. Großes Interesse hat in den vergangenen Jahren die Suche
nach Assoziationsregeln erregt. Die dabei zum Einsatz kommenden
Algorithmen wurden von Agrawal und Srikant verwendet, um eine neue
Klasse von interessanten Informationen zu definieren: sequentielle
Muster (Sequential Patterns).
Auf einer Menge von Sequenzen, die ihrerseits aus je einer Menge von
zeitlich geordneten Ereignissen bestehen, werden häufig auftretende
Muster gesucht. Solche Muster könnten zum Beispiel die Erkenntnis
beschreiben, daß ein Kunde, der einen Computer kauft, häufig
binnen kurzer Zeit auch dazu passende Speichererweiterungen erwirbt.
Ausgehend von dem Verfahren von Agrawal und Srikant werden in dieser
Arbeit Erweiterungen erwogen, die hauptsächlich die Aussagekraft
der gefundenen Lösungen steigern. Unter anderem wird ein Maß zur
Bestimmung der Fortsetzungswahrscheinlichkeit für Muster aus dem
Bereich der Assoziationsregeln übertragen. Damit können
Abhängigkeiten zwischen Ereignissen, die zeitlich versetzt
auftreten, untersucht werden. Desweiteren wird das neue Maß der
Reihenfolgensicherheit definiert, mit dem die Wahrscheinlichkeit
beschrieben ist, daß die im Muster enthaltenen Ereignisse in der
implizierten Reihenfolge auftreten.
Die nichttrivialen Aspekte der Implementierung werden ausführlich
besprochen. Die Evaluation der prototypischen Implementierung des
erweiterten Verfahrens (eGSP) wird unter anderem mit realen Daten
aus dem Qualitätsinformationssystem der Mercedes-Benz AG
durchgeführt.
Ein Vergleich mit verwandten Ansätzen und ein Ausblick auf
zukünftige Entwicklungsmöglichkeiten runden diese Arbeit ab.
|